面向人工智能数据治理应该怎么做?
面向人工智能的数据治理的主要步骤 面向人工智能的数据治理的主要内容
01
—
如上图所示,人工智能整体流程分为七个关键步骤:收集数据,预处理,特征工程、标注、增强、划分、训练、验证、推理。而在这关键的七个步骤设计主要的数据治理包含数据质量,数据安全隐私,数据伦理 三个方面的内容。
02
—
基于人工智能数据处理步骤,下面详细说明在每一步数据治理需要完成的内容。
(1)在数据采集阶段,治理的焦点覆盖了结构化、非结构化、半结构化数据,以及空间地理和时间序列等多模态数据集。选择数据来源和制定收集策略是影响后续数据质量的关键因素。从一开始,就必须确保数据的有效性和代表性,这是构建高质量数据集的基石。
a. 数据清洗:此阶段聚焦于消除数据中的错误、不完整、不一致和重复等问题。具体措施包括:
1、 缺失值处理:通过填充(如使用平均值、中位数、众数等)、插值或其他方法处理缺失值。
2、 异常值检测与处理:识别并移除或者替换那些明显偏离正,常范围的数据点,防止其对模型训练产生不良影响。例如非结构化文本中的语言一致性检测,特殊符号检测等内容,保障数据内容的正常性。
3、数据一致性校验:对同一实体在不同数据源中的记录进行比对和整合,保证数据的一致性。当对于不同采集源的内容进行相似度对别,如果出现相似度为60%以上的内容,则保留一份数据,保障一致性。
4、 去重处理:识别并移除非唯一标识的重复数据记录,避免因重复样本导致的模型训练偏差。
c. 数据增强:
即使经过精心标注,实际可用的数据量也可能受限,
这可能会导致模型过拟合等问题。数据增强技术旨在通过一系列规则或算法人为地扩增训练数据,如在图像识别任务中采用翻转、旋转、裁剪、色彩变换等方式生成新的训练样本;在文本数据上,可通过同义词替换、句式变换等方式生成不同的表达形式。数据增强不仅可以有效扩大训练样本空间,还可以提高模型的泛化能力和鲁棒性,降低过拟合的风险。数据清洗和预处理的操作步骤可以跟进当前的操作内容标准化,作为数据进入的标准清洗规则,每个采集进入的数据都经过这些标准化的处理之后进入数据存储,提高数据的准确性。
(3)特征工程阶段:此阶段治理对象包括:原始数据集,中间数据和特征变量、标签数据集等。此阶段将原始数据转化为适合机器学习算法使用的特征表示,包括特征提取、特征选择、特征构造等。对于非结构化数据,可能需要进行特征提取,如文本分词、图像特征提取等。特征的选择、构造与转换过程决定了模型能否有效捕捉到数据中的有用信息,特征的质量直接影响模型的表现力和泛化能力。
(4)数据标注阶段:此阶段治理对象主要是标注数据集。对于监督学习任务,需要人工或半自动方式对数据进行标注。高质量的标注数据对于模型的学习至关重要。准确、一致且全面的标注能显著提升模型训练效果。
(5)数据划分阶段:此阶段治理对象主要是训练集、验证集和测试集三类。本阶段将数据集划分为训练集、验证集和测试集,训练集用于训练模型。数据划分阶段的质量治理重点在于保障数据分布和数据平衡,合理地将数据划分为训练集、验证集和测试集,确保每个集合都能代表总体数据分布,有助于避免过拟合或欠拟合。
(6)数据增强阶段:此阶段治理对象主要是合成数据。为了提高模型的泛化能力和应对不平衡数据问题,合成数据是通过模拟或生成技术生成的人工数据,用于模型训练、隐私保护等目的。虽然对合成数据的质量治理不是直接改善原始数据质量,但能间接提高模型对各种情况的适应性和泛化能力。合成数据质量治理包括对合成数据的生成过程、使用限制等方面进行规范和管理。
(7)模型训练阶段:此阶段治理对象主要是训练数据。使用高质量的数据训练模型,会得到更准确、稳定的结果。训练过程中,如果数据质量不佳,模型容易学得有偏差或者过拟合。训练数据的数据质量治理重点保障数据的完整性、准确性、一致性、多样性和代表性。
(8)模型验证与测试阶段:此阶段治理对象主要是验证数据和测试数据,包括对抗性样本、稀有事件或者小样本数据等。模型的性能验证和测试依赖于独立的高质量测试集,只有当测试数据具有良好的代表性时,才能准确评估模型在新样本上的真实性能。在模型验证与测试阶段,对数据的要求和活动更加聚焦于检验模型在未知数据上的表现和鲁棒性,确保模型不仅在训练集上表现出色,而且在新的、未见过的数据上也能维持良好的性能。
(9)模型推理阶段:此阶段治理对象主要是推理数据集。在模型推理阶段,除了确保模型自身的性能以外,还要关注用于推理的实时数据的质量,通过一系列的数据处理活动来保证模型在实际应用中的效果和稳定性。推理数据集质量治理的关注点主要包括推理数据集的数据格式兼容性、数据质量监控、数据有效性验证、实时数据更新与维护、在线特征提取与转换等。
总结一下,面向AIGC的数据治理基于当前的处理流程,治理内容主要包含3方面:
1、数据质量的处理,例如标准化数据,采集源质量评分,缺失值填充,数据偏见校验等,以及在训练前对训练数据进行数据伦理的校验和处理。保障进入到AIGC后续数据处理和训练的数据是符合要求的。
2、数据质量监控,数据质量监控贯穿整个AIGC数据训练流程中,尽量对每个环节提出关键指标进行实时监控,特别是针对训练前的训练数据和推理前的推理数据进行质量监控。
3、数据安全处理,在整个AIGC的数据处理流程,特别是采集、预处理、以及数据发布流程需要使用到相关的数据安全操作:匿名化,安全对抗,加密脱敏,同态加密,概念擦除、异常数据校验,安全水印等。
基于以上的分析,面向AIGC的数据治理过程和传统的结构化的数据治理过程区别很大。结构化的数据治理过程可以参考前期的数据治理体系文章一到七。
本文部分内容来源:CCSA TC601 大数据技术标准推进委员会《2024面向人工智能的数据治理(DG4AI)实践指南报告(1.0)》需要相关文档可以添加文章后面的二维码获取。
欢迎加入【数据行业交流群】社群,长按以下二维码加入专业微信群,商务合作加微信备注商务合作,AIGC应用开发交流入群备注AIGC应用
往期数据平台历史热门文章:
基于DataOps的数据开发治理:实现数据流程的自动化和规范化
往期AIGC历史热门文章: